Notebook du contrat de maintenance

Sommaire

  1. Import des librairies
  2. Chargement des données
  3. Modèle kMeans
  4. Performance du modèle au cours du temps
  5. Conclusion

Import des librairies

Chargement des données

Modèle kMeans

On va utiliser un des modèles identifié dans le notebook "model", comme étant le plus performant pour segmenter les clients les plus importants, c'est à dire ceux qui ont passé plus d'une commande ou dépensent de gros montants, ainsi que ceux qui n'ont commandé qu'une seule fois.

Il s'agit du modèle kMeans avec 6 clusters et les features RFM (Récence, Fréquence, Montant cumulé) + une feature qui indique si le pays du client et le même que celui du vendeur.

Cette dernière feature permet de segmenter plus précisément les clients qui n'achètent qu'une seule fois.

Performance du modèle au cours du temps

On va évaluer la performance de notre modèle au cours du temps sur les données que l'on a en notre possession, en jouant sur la fréquence de mise à jour de ces données.

L'objectif est de trouver à partir de qu'elle fréquence le modèle se dégrade, c'est à dire un seuil à partir duquel les prédictions entre le modèle d'origine et un nouveau modèle entraîné sont trop différentes.

Performance par interval de temps

Evolution de la performance dans le temps

Conclusion

Si l'on fixe le seuil du score ARI à 0.8, il faudrait donc réentraîner le modèle tous les 90 jours environ en y ajoutant les nouvelles données.

Si le modèle n'est pas réentraîné dans le temps, le clustering collera de moins en moins aux nouvelles données, et l'on risque de faire de mauvaises prédiction et donc un mauvais ciblage de clientèle.